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摘 要 : 针对 推荐 系统 中 的 评分 预测 问题 ， 在 矩阵 分 解 的 基础 上 ， 实 现 了 一 种 修正 的 二 项 矩阵 分 解 算法 。 假 设 用 户 
对 物品 的 评分 基于 二 项 分 布 ， 由 于 用 户 的 评分 习惯 存在 差异 ， 物 品 的 受 欢迎 程度 也 存在 着 差异 ， es 
分 给 阵 存在 偏 置 量 。 通 过 引入 偏 置 量 对 算 阵 分 解 和 评分 预测 进行 修正 ， 采 用 最 大 后 验 估计 建 模 ， 并 通过 随机 梯度 
降 算 法 优化 模型 。 实 验 结果 表明 ， 在 MovieLens 100K 数据 集 上 ， 引 入 评分 偏 置 的 二 项 和 珑 阵 分 解 算法 在 推荐 精度 
离线 计算 时 间 等 方面 均 优 于 传统 的 二 项 矩阵 分 解 算法 。 
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Binomial matrix factorization with rating drift for recommender systems 


Zhang Xiaohong, Zhang Qizhi, Zhou Yali 
(School of Automation, Beijing Information Science & Technology University, Beijing 100192, China) 


Abstract: Based on matrix factorization techniques, in this paper, implemented a modified binomial matrix decomposition 
algorithm in order to solve the recommender system’s rating prediction problem. Suppose the user's rating of the item is 
based on the binomial distribution. There are differences in the user's rating habits, and there are differences in the 
popularity of the items, resulting in an offset in the user-item scoring matrix. So, use the maximum a posteriori estimate to 
design model and the model is optimized by a stochastic gradient descent algorithm. The experimental results show that the 
modified binomial matrix decomposition algorithm is superior to the traditional binomial matrix decomposition algorithm in 
terms of recommender accuracy and offline calculation time on the MovieLens 100K datasets. 
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0 引言 一 小 部 分 物品 进行 了 评分 ， 这 在 数据 中 的 表现 为 稀疏 性 。 在 
攻 实际 应 用 中 ， 由 已 知 的 评分 数据 通过 机 器 学 习 算法 计算 出 未 

大 数据 时 代 的 标志 之 一 便 是 “数据 丰富 , 但 信息 贫乏 ”。 知 的 评分 , 通过 候选 和 排序 过 程 , 最 终 为 用 户 生 成 一 个 Top-N 
对 于 信息 消费 者 ， 从 海量 信息 中 找到 自己 感 兴趣 的 信息 变 得 。 列表 ， 这 就 是 外 推 的 过 程 。 在 这 个 外 推 的 过 程 中 ， 最 经 典 的 
十 分 的 困难 ， 对 于 信息 生产 者 ， 如 何 捕捉 用 户 兴起 算法 是 协同 过 滤 算 法 : 利用 用 户 和 物品 之 间 的 交互 信息 为 用 
户 兴 趣 变 化 ， 生 产 出 用 户 感 兴趣 的 信息 变 得 极 具 挑 战 趾 。 户 产生 推荐 。 其 中 主要 包括 基于 邻 域 的 方法 、 隐 语义 模型 
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解决 或 缓解 这 种 矛盾 的 核心 是 通过 “漏斗 ”来 减少 最 终 (latent factor model, LFM)、 基 于 图 的 随机 游 走 算法 0 三 种 方 
呈献 给 用 户 的 信息 数量 。 推 荐 系统 就 是 解决 这 一 矛盾 的 重要 法 。 这 其 中 最 著名 、 在 工业 界 得 到 最 广泛 应 用 的 是 基于 邻 域 
工具 , 通过 对 信息 进行 过 滤 、 排 序 , 呈现 给 用 户 有 用 的 信息 。 的 方法 器 。 
E 荐 系统 的 本 质 就 是 通过 一 定 的 方式 将 用 户 和 物品 联系 起 来 ， 而 隐语 义 模型 是 最 近 几 年 推荐 系统 领域 最 为 热门 的 研 
通过 发 掘 用户 的 需求 与 兴趣 ， 通 过 推荐 算法 从 海量 数据 中 挖 话题 ， 其 核心 是 通过 隐 含 特征 联系 用 户 兴 趣 和 物品 。 在 推 
掘 出 用 户 可 能 感 兴趣 的 项 目 推荐 给 用 户 。 目 前 ， 推 荐 系统 已 系统 领域 ， 隐 语义 模型 和 矩阵 分 解 模型 思想 一 致 ， 都 是 通 
经 成 功 应 用 到 了 互联 网 的 众多 领域 中 [9。 降 维 的 方式 将 矩阵 补 全 。 最 早 的 矩阵 分 解 模型 来 源 于 数学 
传统 推荐 方法 主要 包括 协同 过 滤 技 术 59、 基 于 内 容 的 推 的 奇异 值 分 解 (singular value decomposition，SVD)。2006 

荐 方法 [5 和 混合 推荐 方法 名。 文献 [2] 给 出 了 推荐 算法 的 形 “Netflix Prize 开始 后 ， Funk09 在 博客 上 公布 了 一 个 算法 
式 化 定义 : 表示 用 户 (user) 集 合 , 7 表示 物品 (item) 集 合 , 定 (Eunk-SVD 算法 ), 引起 了 学 术 界 对 矩阵 分 解 类 方法 的 强烈 关 
义 为 效用 函数 ， 用 来 计算 项 目 i 对 用 户 x 的 推荐 度 ， 而 推 ” 注 。 此 后 便 出 现 了 一 系列 改进 模型 : 加 入 偏 置 项 后 的 
荐 算法 通过 计算 推荐 度 为 用 户 xE 忆 找到 其 最 感 兴趣 的 项 目 ”Biased-SVD 算法 、 考 虑 用 户 历史 评分 过 的 物品 而 得 到 的 
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EJ， 如 式 (1) 所 示 。 SVD++ 算 法 9、 基于 用 户 评 分 数据 服从 正 态 分 布 的 概率 矩阵 
VueU,i, =argmax f (ui) (1) 分解 算法 、 针 对 离散 评分 数据 集 上 的 二 项 矩阵 分 解 算法 

推荐 系统 有 效 性 需要 解决 的 一 个 关键 问题 是 ， 效用 函数 (binomial matrix factorization，BMF) 0 等 。 
了 通常 是 定义 在 UxI 的 一 个 子 空间 上 ， 而 推荐 算法 则 必须 将 本 文 主要 针对 隐语 义 模型 中 二 项 矩阵 分 解 算法 存在 的 某 
了 外 推 至 整个 UXxI 空间 049。 例 如 ， 现 在 很 多 应 用 通常 将 推荐 些 问题 在 MovieLens 100k 电影 评分 数据 集 上 通过 离线 实验 


度 定义 为 用 户 对 物品 的 评分 ， 但 在 实际 中 ， 由 于 用 户 仅仅 对 展开 研究 。 
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果 比 较 好 ， 上 共有 容易 编程 实现 、 实 现 复杂 度 低 、 预 测 效果 较 
好 等 ， 同 时 还 能 保持 扩展 性 等 优点 。 后 续 许 多 著名 模型 都 是 


矩阵 分 解 算法 主要 应 用 于 评分 预测 问题 。 设 存在 了 工 个 商 
品 ，Y 个 用 户 ，Nx7 表示 评分 矩阵 ， 则 和 矩阵 R 中 元 素 ri 表 
示 用 户 wu 对 物品 i 的 评分 。 现 假设 DD 为 用 户 和 物品 的 潜在 特 
征 个 数 ， 那 么 DxN 维 的 矩阵 p 表示 用 户 的 潜在 特征 矩阵 ， 
Pu 表示 用 户 wu 的 潜在 特征 向 量 ;， Dx7 维 的 矩阵 gq 表示 物品 的 
潜在 特征 矩阵 ，4 表示 物品 4 的 潜在 特征 向 量 。 由 此 预测 用 
户 4 对 物品 i 的 评分 为 


fi =q7 Pp, (2) 
所 以 ， 评分 矩阵 了 便 可 由 两 个 低 秩 和 矩阵 p 和 gq 近似 的 表 
示 为 


R~R=g'p G3) 


因此 ， 本 文 认为 只 要 两 者 误差 尽量 小 ， 便 能 用 预测 值 来 
尺 蔡 真实 值 ， 将 评分 预测 问题 转换 成 最 优化 问题 。 

SVD 是 最 经 典 的 矩阵 分 解 算法 之 一 ， 基 本 思想 表示 为 
R=UZVr (4) 
其 中 : U 和 矿 分 别 表示 用 户 物品 隐 含 因子 和 矩阵， 三 代表 奇异 
值 矩 阵 并 且 为 对 角 和 矩阵 。 基 于 数据 中 的 一 小 段 携 带 了 数据 外 
中 的 大 部 分 信息 ， 其 他 信息 要 么 是 噪声 ， 要 么 就 是 毫 不 相 3 
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通过 对 Funk-SVD 模型 改进 而 获得 四。 
2 ”基于 修正 的 二 项 矩阵 分 解 算法 


传统 矩阵 分 解 算法 利用 机 器 学 习 的 思想 有 利于 克服 评分 
数据 的 稀 玻 性 问题 ， 通 过 引入 L2 范 数 降低 模型 的 过 拟 合 问 
题 ， 但 矩阵 分 解 算法 在 给 定 用 户 和 物品 的 潜在 因子 后 ， 认 为 
对 应 的 评分 随机 变量 满足 正 态 分 布 。 然 而 对 于 绝 大 部 分 实际 
应 用 协同 过 滤 问 题 里 ， 评 分 数据 往往 是 在 若干 离散 的 整数 间 
取 值 由 。 例 如 MovieLens 100 k 电影 评分 数据 集 和 Netflix Prize 
中 ， 评 分 值 5={1,2,3,4,5} 显 然 采 用 上 述 假 设 不 合理 。 
寻 此 ， 采 用 三 项 分 布 假设 代替 矩阵 分 解 算 法 中 的 正 态 分 
布 假设 ， 如 式 (8) 所 示 。 
p(Rl psQ)=B(R -1|S 1B,) (8) 
中 : B(kln, p) 为 具有 参数 n 和 pp 的 二 项 分 布 函 数 ;5 为 界定 


允许 评分 范围 的 定 值 (MovieLens 100k 和 Netflix Prize,S = 5 )。 
全 
令 
pbBi= : (9) 
wi ] +e 


bui 为 用户 u 和 物品 i 的 潜在 因子 随机 向 量 点 积 的 某 函 数 


ym 


的 信息 的 前 提 下 ， 本 文 只 需 选 取 前 D 个 因子 即 可 表示 某 个 
户 或 物品 。 在 Netflix Prize 中 ，SVD 算法 及 其 改进 算法 表 
良好 53]。 虽 然 SVD 算法 简单 易于 实现 ， 但 SVD 算法 要 求 
阵 是 稠密 的 ， 即 矩阵 里 的 元 素 要 非 空 ， 否 则 就 不 能 进行 英 
分 解 。 对 此 , 传统 的 SVD 算法 通常 用 全 局 平均 值 对 评分 矩 
中 的 缺失 值 进 行 简单 补 全 。 受 制 于 用 户 数 和 物品 数 ， 传 统 条 
阵 分 解 算法 在 实际 生产 环境 中 难以 使 用 。 
针对 SVD 算法 需要 填充 矩阵 , 分 解 降 维 , 特别 是 矩阵 求 
逆 的 时 间 复 杂 度 为 O(N^3) 的 问题 ， Funk 提出 了 Funk-SVD 
法， 通过 将 矩阵 分 解 为 低 秩 的 用 户 、 物 品 矩 阵 ， 同 时 降低 
计算 复杂 度 ， 借 鉴 线 性 回归 思想 ， 最 小 化 观察 数据 的 平方 来 
寻求 最 优 的 用 户 和 项 目的 隐 向 量 表示 ， 如 式 (5) 所 示 。 


min 2 (mq ps) (5) 
并 提出 L2 正则 化 矩阵 分 解 ， 通 过 结构 风险 最 小 化 来 降 

低 模 型 学 习 过 程 中 的 过 拟 合 问题 : 

min 》 (1 -gp.) +4(lal +lp,l) (6) 
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同时 通过 随机 梯度 下 降 算法 来 寻求 函数 的 最 优 解 。 在 获 
得 用 户 和 物品 因子 矩阵 p 和 g 后 ， 由 式 (7) 计 算 用 户 w 对 物品 
i 的 预测 评分 。 


fF, =prg = 2 p,q, (7) 


算法 1 Funk-SVD 算法 
初始 化 潜在 因子 数 K、 惩 罚 参数 4、 学 习 率 7， 初 始 化 
模型 参数 p 和 4( 从 正 态 分 布 中 随机 抽取 出 这 些 值 )。 
a) 对 每 个 用 户 一 物品 评分 (u, 由。 
(a) 计算 评分 残 差 6=i-h;， 其 中 ;由 式 (7) 计 算得 到 。 
(b) 更 新 用 户 wu 和 物品 i 的 因子 向 量 ps 和 gi: 
A gx 一 4 Pr) 
Girt+=7(ei: Dur -A gi) 
b) 计算 新 的 均 方 根 误差 (root mean square error, RMSE)。 
如 果 新 的 RMSE 比 之 前 RMSE 小 , 则 继续 前 面 更 新 步 又; 否 
则 终止 算法 。 
Funk-SVD 算法 虽然 思想 很 简单 ， 但 是 在 实际 应 用 
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值 。 因 此 ， 用 户 w 对 物品 i 的 评分 7(/=1,2,….…,5) 的 概率 了 为 
P(R,;=7|P,=p,,Q -=[ je (1-Bi) (10) 


即 假定 用 户 对 所 有 的 物品 都 有 打分 行为 ， 每 次 打分 至 少 为 1 

分 ， 本 文 认 为 用 户 立 根据 自己 的 喜好 对 每 个 物品 打 的 每 1 分 

可 看 成 是 “喜欢 ”或 “不 喜欢 ”， 这 样 用 户 对 电影 的 评分 满 

足 二 项 分 布 ， 所 以 BMF 中 和 QO 的 log- 后 验 分 布 为 
log(P,C|R,O)= 

人 Cm 


(wi)ep 


1 鼠 法 ] 之 站 
一 = _0 _0)- 
py 之 (P LA (ps -4) yy > (4-9) (q;—0) 


(11) 
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令 KW=0 和 0=0， 选 取 方 差 o? 和 ?为 合适 值 S， 那 么 最 
大 化 式 (11) 等 价 于 最 小 化 目标 函数 ， 如 式 (12) 所 示 。 


G(P,0)=L 5 {(s-Dlog(l+e re )+ (Sn) pq}+ 
2 np (12) 


4{SloE lak] 


获得 P、Q 后 ， 本 文 使 用 全 新 的 评分 预测 公式 获得 用 户 
4 对 物品 i 的 预测 评分 : 


,于 


9 一 1 
1+e-mqg (13) 
这 个 公式 通过 隐 类 将 用 户 和 物品 联系 在 一 起 。 但 是 在 实 
际 情况 下 ， 一 个 评分 系统 有 些 固 有 属性 和 用 户 物品 无 关 ， 而 
用 户 也 有 些 属 性 与 物品 无 关 , 物品 也 有 些 属 性 和 与 用 户 无 关 。 
同时 通过 对 用 户 对 电影 的 评分 数据 进行 分 析 , 发 现 1 682 
部 电影 中 的 600 部 电影 集中 了 用 户 10 万 条 评分 数据 中 的 
83 715 条 ， 即 多 数 用 户 兴 趣 集中 在 这 600 部 热门 电影 中 ， 而 
其 他 1 082 部 电影 却 很 少 有 用 户 关注 甚至 没有 人 关注 。 也 就 
是 说 大 多 数 用 户 只 对 当中 的 少数 电影 有 兴趣 ， 而 绝 大 多 数 的 
电影 只 有 很 少 的 的 人 有 评分 行为 。 即 物品 的 流行 度 中 存在 着 
长 尾 分 布 问题 和 和“ 哈 利 波 特 问题 ”后 问题 ， 导 致 不 同 物品 
受 欢迎 程度 也 大 不 一 样 。 针 对 上 述 两 种 情况 ， 本 文 将 实现 一 
种 基于 修正 的 二 项 矩阵 分 解 算法 (Biased-BMF): 即 在 二 项 矩 


hi =1+ 
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率 为 94.11%, 每 次 从 数据 集中 随机 抽取 90% 的 数据 作为 训练 


这 种 偏差 信息 符合 均匀 分 布 或 正 态 分 布 ， 则 基于 评分 偏 置 的 
用 户 w 对 物品 i 的 评分 预测 公式 为 


ee (14) 


1+ emgth, tb 
而 这 种 基于 评分 偏 置 的 二 项 矩阵 分 解 算法 ， 其 对 应 的 最 小 化 
目标 函数 为 


G(p,0)= 
1 
二 S—l)log(l+e?%)+(S—x,;)(p7gq;+b, +b;)]+ 
2 )log(l+e rs )+(S -ni)(prq )] (15) 
2 [4(p tal) + (b, +b 7) | 
(wi)ep 
其 中 : 入 和 42 为 惩罚 参数 ， 表示 训练 集中 所 有 记录 的 评分 


的 全 局 平均 值 。 在 不 同 的 应 用 中 ， 应 用 定位 和 物品 的 不 同 ， 
整体 评分 分 布 也 会 显示 出 一 些 差异 ， 全 局 平均 值 用 来 表示 应 
用 本 身 对 用 户 评分 的 影响 。 思 表示 用 户 偏 置 项 ， 表 示 用 户 的 
评分 习惯 不 受 物 品 因素 的 影响 ， 即 只 与 用 户 评分 习惯 有 关 。 
bi 表示 物品 偏 置 项 ， 表 示 物 品 接受 的 评分 中 和 用 户 没有 关系 
的 因素 ， 即 只 与 物品 特征 有 关 。 同 样本 文采 用 随机 梯度 下 降 
算法 来 最 小 化 目标 函数 。 使 用 随机 梯度 下 降 算 法 求解 最 优 解 
的 迭代 过 程 如 算法 2。 

算法 2 Biased - BMF) 

初始 化 : 潜在 因子 数 D， 惩 罚 参 数 1) 和 4，， 学 习 率 y， 
迭代 步 数 step， 训 练 集 与 测试 集 分 割 比 ratio， 全 局 评分 均值 


r; 


集 ，10% 的 数据 作为 测试 集 。 
本 文通 过 RMSE 来 评估 推荐 精度 , 这 是 目前 在 离线 测试 
中 衡量 推荐 算法 精度 的 最 常见 的 指标 ， 其 值 越 小 ， 代 表 算 法 
精度 越 高 ， 推 荐 效果 也 就 越 好 。 

设 K 为 评分 记录 条 数 ，rii; 为 真实 评分 值 ，x; 为 评分 预 
测 值 ， 则 RMSE 计算 方式 如 式 〈16) 所 示 。 


(16) 


同时 还 通过 览 测 运行 时 间 (time) 评 估算 法 的 运行 效率 。 
通过 实验 对 比 Biased-SVD、SVD ++、BMEF 算法 及 本 文 
是 出 的 Biased - BMF 算法 来 判断 Biased-BME 的 性 能 。 该 算 
法 主要 参数 有 潜在 因子 数 刀 .正则 化 参数 履 和 2、 学 习 率 小、 
和 迭代 步 数 step、 训 练 集 与 测试 集 分 割 比 ratio。 在 理论 分 析 
的 基础 上 ， 通 过 一 系列 调 参 ， 本 文 在 固定 学 习 率 y=0.02， 正 
则 化 参数 Xi=X2 = 0.1， 分 割 比 ratio = 0.9 的 情况 下 , 研究 迭代 
步 数 step 和 潜在 因子 数 刀 在 测试 集 上 对 推荐 算法 精度 及 运行 
时 间 的 影响 。 
图 1 和 2 分 别 代表 不 同 的 step 值 对 算法 RMSE 和 time 
的 影响 。 从 算法 的 鲁 棒 性 上 来 看 ，Biased-BMF 的 RMSE 值 
波动 维持 在 0.02 之 间 ， 而 BMF 出 现 了 明显 的 波动 。 从 推荐 
精度 上 来 看 ，Biased-BMEF 算法 的 推荐 精度 明显 高 于 BMF 及 
Biased-SVD， 并 接近 SVD++ 算 法 ， 特 别 是 当 step=300 时 ， 
RMSE=0.89， 远 远 优 于 其 他 三 种 算法 。 从 时 间或 者 算法 的 时 


初始 化 : 模型 参数 P、O 和 评分 偏差 值 bw 和 bi( 本 文采 用 


从 均匀 分 布 中 随机 抽取 这 些 值 的 方法 获取 P, 0, bw.bi 的 值 )。 
a) 对 每 个 用 户 一 物品 评分 (u, 疗 。 
(a) 计算 评分 残 差 ev = 六 =- 加， 加 由 式 (14) 计 算得 到 。 


(b) 更 新 用 户 wu， 物 品 i 的 因子 向 量 ps 和 gj: 
bt=%(e,, 0, =:p,) 
gq,+=7(e,,*p, -hgq,) 

(c) 更 新 并 修正 用 户 uw， 物品 i 的 偏差 : 

bt+=7y(e,, -hh-(b, +bh—7)) 
b+=7y(e,, -hh-(b, +b;—7)) 


b) 计算 新 的 RMSE。 如 果 新 的 RMSE 小 于 之 前 的 RMSE 
或 者 迭代 步 数 小 于 默认 的 参数 值 ， 则 继续 更 新 ;否则 结束 算 


法 。 
3 ”实验 结果 及 评估 


评测 推荐 系统 通常 的 三 种 方式 是 离线 实验 、 用 户 调查 、 
在 线 实验 。 由 于 本 文 无 法 提供 一 个 真实 的 系统 环境 用 于 实验 ， 
所 以 采用 离线 实验 。 离 线 实验 步骤 如 下 : 
a) 数据 预 处 理 。 对 数据 集 按照 一 定 的 方式 和 格式 进行 处 
理 ， 生 成 一 个 标准 格式 的 数据 集 。 
b) 对 数据 集 进行 分 割 ， 按 9: 1 的 比例 生成 训练 集 和 测 
试 集 。 
c) 用 训练 集训 练 用 户 一 物品 评分 模型 , 在 测试 集 上 进行 
预测 。 
d) 通过 离线 指标 评价 算法 预测 精度 。 
本 文 将 采用 离线 实验 的 方式 在 GroupLens 提供 的 
MovieLens 100k 电影 评分 数据 集 上 评估 算法 。MovieLens 
100k 数据 集 包 含 943 个 用 户 对 1 682 部 电影 的 100 000 条 评 
分 数据 (1~5)， 每 个 用 户 至 少 对 20 部 电影 进行 了 评分 ， 稀 琉 


间 复 杂 度 上 来 考虑 , 由 于 SVD++ 算 法 在 模型 中 引入 了 如 用 户 
历史 浏览 数据 、 电 影 的 历史 浏览 数据 等 隐 式 反馈 信息 ， 所 以 
本 文 看 到 BMF 和 Biased-BMF 算法 所 需 的 时 间 低 于 SVD++ 
和 Biased-SVD 算法 。 因此 认为 Biased-BMEF 能 够 在 更 短 的 时 
间 内 得 到 更 高 的 推荐 精度 ， 同 时 推荐 精度 不 会 随 算法 的 迭代 
次 数 出 现 大 的 波动 。 

一 加 -一 SVD++ 

—$— Biased-S\D 


-一 全 一 BMF 
0.96 -一 tf 一 Biased-6MF 


吕 0.94 
~ 092 
09 
0.88 
50 100 150 200 250 300 
迁 代 步 数 step 


图 1 算法 在 不 同 的 step 值 下 的 RMSE 曲线 
Fig.1 RMSE curve of algorithm under different step values 
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800 —$— Biased-SVD 
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200 
0 
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迁 代 步 数 step 
图 2 算法 在 不 同 的 step 值 下 的 time 曲线 
Fig.2 time curve of algorithm under different step values 


图 3 展示 了 潜在 因子 数 DD 对 预测 精度 的 影响 ,实验 表明 ， 
BMF 和 Biased-BMF 推荐 精度 方面 明显 优 于 BMF 和 
Biased-SVD， 而 Biased-BMF 整体 上 优 于 SVD++， 当 D=300 
时 ，RMSE(Biased-BMF)=0.89，RMSE(BME)= 0.91。 
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录用 定稿 张 笑 虹 ， 等 : 
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潜在 因子 数 D 
图 3 算法 在 不 同 的 潜在 因子 数 D 下 的 RMSE 曲线 
Fig.3 © RMSE curve of algorithm under different potential factor 


numbers D 

于 SVD++ 算 法 不 仅 考虑 到 邻 域 模型 , 同时 还 对 未 知 的 
评分 数据 做 基准 评分 预测 ， 从 而 准确 率 较 高 。 而 Biased-BMF 
则 通过 深入 考虑 用 户 和 物品 评分 偏 置 量 ， 挖 掘 数据 间 的 潜在 
语义 信息 。 因 此 其 预测 精度 接近 于 SVD++ 算 法 , 但 在 算法 的 
时 间 复 杂 度 上 优 于 SVD++ 算 法 。 因 此 ， 当 本 文 确定 潜在 因子 
数 D 时 ，Biased-BMF 更 能 精确 的 表示 物品 或 用 户 的 潜在 特 
征 矩 阵 ， 提 高 推荐 精度 。 


4 ”结束 语 


本 文 对 基于 矩阵 分 解 的 协同 过 滤 推 荐 算法 的 基本 思想 和 
相关 工作 进行 回顾 和 总 结 之 后 ， 在 BMF 算法 的 基础 上 ， 为 
了 研究 用 户 和 物品 评分 偏 置 对 推荐 精度 的 影响 ， 同 时 考虑 到 
评分 数据 为 离散 值得 特点 ， 实 现 了 一 种 考虑 偏 置信 息 的 
Biased-BMF 算法 。 在 MovieLens 100K 数据 集 上 的 实验 结果 
表明 , Biased-BMF 算法 在 推荐 精度 和 算法 鲁 棒 性 等 方面 均 优 
于 原始 的 BMF 算法 及 其 他 几 种 经 典 的 矩阵 分 解 算法 。 尽 管 
本 文 对 和 矩阵 分 解 推荐 算法 中 的 评分 偏 置 相关 问题 进行 了 较 深 
入 的 研究 ， 但 还 有 很 多 工作 要 做 ， 比 如 融合 用 户 兴 趣 变化 的 
Biased-BMEF 动态 模型 ; 引入 深度 学 习 思 想 更 进一步 挖掘 用 户 
和 物品 的 隐藏 特征 。 
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